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一 种 基于 二 进 制 编码 的 Apriori 改进 算法 
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摘 要 : Apriori 算法 在 挖掘 频繁 项 集 时 需要 多 次 扫描 数据 库 ， 这 样 会 因为 频繁 的 IO 操作 而 导致 效率 低下 。 为 了 改 
进 算法 的 执行 效率 ,BE-Apriori(binay encoded Apriori) 算 法 充分 利用 了 二 进 制 数 相 比 编程 语言 中 各 种 数据 结构 在 内 存 
及 运算 速度 上 的 优势 ， 对 事务 记录 进行 二 进 制 编码 后 加 载 到 内 存 ， 然 后 利用 等 效 的 二 进 制 数 之 间 运 算 代 替 集合 之 间 
的 运算 。 分 析 了 算法 性 能 ,并 利用 UCI 数据 集中 的 毒 蘑 菇 数据 对 BE-apriori 算法 进行 实验 验证 。 结 果 表 明 BE-Apriori 
可 以 正确 挖掘 频繁 项 集 ， 并 且 相 比 Apriori 算法 有 着 更 好 的 性 能 。 
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Improved Apriori algorithm based on binary encoding 


Hu Shichang, Li Jinhuai, Wang Changying 
(School of Data Science & Software Engineering, Qingdao University, Qingdao Shandong 266071, China) 


Abstract: Apriori algorithm has to scan the database multiple times when mining frequent item sets, resulting in 
inefficiencies because of frequent IO operations. To improve efficiency of Apriori algorithm, BE-Apriori algorithm makes 
full use of the advantages of binary numbers compared to the memory usage and computational speed of various data 
structures in programming languages. It loads the transaction record with binary encoding into memory through, then 
translates the set operations into the equivalent binary number operations. The analysis of algorithm performance and the 
experimental result using the poisonous mushroom data in the UCI data Show that BE-Apriori can correctly mine frequent 
itemsets and has better performance than the original Apriori algorithm. 
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0 引言 效率 。 该 算法 性 能 不 稳定 , 通过 排序 来 减少 候选 项 集 的 产生 ， 
一 但 是 不 能 过 滤 掉 不 可 能 的 全 部 候选 项 集 ,一 种 Apriori 的 改进 

随 着 社会 经 济 和 互联 网 的 快速 发 展 ， 信 息 资源 彻底 打破 ” 算法 "通过 使 用 概率 的 方法 估算 数据 项 集 同 时 出 现 的 概率 ， 
之 前 地 域 和 时 空 的 限制 ， 在 网 络 上 飞速 地 传播 和 发 展 。 信 息 。 但 其 中 的 参数 a 和 的 设 定 需要 额外 的 时 间 ， 而 且 还 存在 着 
存储 的 单位 从 之 前 的 以 G 为 单位 ， 到 现在 的 以 PB 甚至 EB 贡 繁 项 集 的 缺失 的 可 能 性 。 基 于 十 字 链 表 的 Apriori 算法 名 


注 


为 单位 。 然 而 ， 随 着 信息 量 的 增加 ， 无 效 信息 也 越 来 越 多 ， 提出 一 种 方法 ， 将 事务 记录 映射 到 十 字 链 表 ， 有 效 地 组 织 了 
从 海量 信息 中 挖掘 特定 信息 的 难度 也 越 来 越 大 。 因 而 从 大 量 事务 记录 排列 ， 可 以 减少 访问 数据 库 的 次 数 以 及 扫描 事务 记 
埋 息 中 挖掘 有 效 信息 的 技术 越 来 越 重要 ， 数 据 挖 掘 技术 和 算 录 的 次 数 。 基 于 预 判 筛选 的 高 效 关联 规 则 挖掘 算法 0 首先 随 
法 应 运 而 生 ， 关 联 规则 挖掘 是 其 中 的 一 个 重要 研究 方向 ， 有 机 采样 统计 频繁 项 集 然后 再 计算 原始 数据 的 频繁 项 集 ， 引 入 
着 广泛 的 应 用 。 阻尼 因子 和 补偿 因子 对 预 判 第 选 产 生 的 误差 进行 修正 ， 可 以 

Apriori 算法 是 关联 规则 挖掘 算法 中 最 为 经 典 的 一 种 , 它 在 一 定 误 判 率 和 遗漏 率 的 情况 下 提高 Apriori 算法 的 执行 效 
是 由 美国 学 者 Agrawal 由 在 1993 年 提出 。Apriori 算法 在 各 种 率 。 这 些 算法 对 Apriori 算法 上 提出 了 改进 , 但 是 结果 却 并 不 
领域 应 用 良好 ， Cd de 的 相关 性 ， 在 是 很 理想 。 为 了 进一步 的 提高 算法 的 执行 效率 ， 提 出 了 基于 
决策 制定 中 提供 有 效 的 支持 外 ,Apriori 算法 主要 由 两 步 组 成 ， 二 进 制 编码 的 BE-Apriori 算法 。 


从 事务 记录 中 获取 频繁 项 集 、 根据 频繁 项 sd. 1 ”Apriori 算法 
对 Apriori 算法 的 性 能 起 决定 性 作用 的 是 第 一 步 外 , 获取 所 有 ” 

的 频繁 项 集 。 之 后 的 基于 Apriori 算法 的 改进 的 算法 主要 也 是 Apriori 算法 通过 通过 层 层 迭代 的 方式 逐 层 获取 频繁 项 
对 获取 频繁 项 集 的 改进 。 一 种 基于 矩阵 的 Apriori 改进 算法 悦 ， ” 集 。 通 过 性 质 1 和 2 减少 候选 项 集 的 个 数 ， 避 免 了 产生 太 多 
将 事务 记录 转换 为 矩阵 的 形式 ， 减 少 了 遍历 数据 库 的 次 数 ， 的 候选 项 集 从 而 过 多 地 扫描 数据 库 计 算 项 集 的 支持 度 。 


下 


然后 通过 对 矩阵 的 运算 来 获取 频繁 项 集 。 然 而 和 矩阵 的 运算 时 1.1 性 质 及 定义 

间 较 长 。 基 于 向 量 和 矩阵 优化 频繁 项 的 改进 Apriori 算法 9， 通 性 质 1 频繁 项 集 的 任何 非 空 项 集 都 是 频繁 项 集 。 

过 运用 快速 排序 的 思想 对 频繁 项 集 的 项 按 各 单项 的 出 现 频 度 性 质 2” 非 频繁 项 集 的 超 集 是 非 频 繁 项 集 。 

升序 重 排 ， 以 此 来 减少 候选 频繁 项 集 的 产 来 提高 算法 的 执行 支持 度 是 指 一 个 项 集 的 支持 度 是 包含 该 项 集 的 事务 在 事 
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物 记 录 中 的 比例 。 其 中 “包含 ”的 意思 是 指 项 集 是 事务 的 子 。” 是 频 繁 项 集 ， 所 以 候选 项 集 C 不 可 能 是 频繁 项 集 。 
集 。 性 质 4 编码 后 的 项 集 a， 和 项 集 b。a&b 的 结果 为 项 集 
1.2 算法 描述 a 和 项 集 b 共同 含有 的 项 集 ;例如 若 频 繁 1- 项 集 为 {A,B,C}， 
本 文 就 寻找 频繁 项 集 这 一 步 上 来 提高 Apriori 算法 的 效 。 项 集 a-{A，B} 二 进 制 编码 的 结果 为 110， 项 集 b-{A,B,C} 二 
率 。Apriori 算法 中 挖掘 频繁 项 集 的 步 又 如 下 : 进 制 编码 的 结果 为 111， 项 集 c-{A,C} 二 进 制 编码 的 结果 为 
a) 扫 描 数 据 库 , 获取 所 有 项 的 支持 度 ， 获取 频繁 1- 项 集 。 101。a&b=a， 表 明 {A，B} 为 {A，B，C} 的 子 集 ，a&c! =a， 
b) 连接 。 若 两 个 频繁 k 项 集 表明 {A,B} 并 非 {A,C} 的 子 集 。 
A :{A[1,A[2],,,A[k-1],A[k]},B:{B[1],B[2],,,B[k-1],B[k]} 满足 性 质 5 编码 后 的 项 集 a， 和 项 集 b。a^b 的 结果 为 项 集 
如 下 条 件 :A[1]=B[1],A[2]=B[2],,,A[k-1]=B[k-1],A[k]!=B[k]， a 和 项 集 b 的 不 同 的 项 集 。 例 如 若 频 繁 1- 项 集 为 {A,B,C}, 项 
则 项 集 A 和 项 集 B 可 以 进行 连接 构成 候选 频繁 (k+1)- 项 集 ， 集 a-{A，B} 二 进 制 编码 的 结果 为 110， 项 集 b-{A,B,C} 二 进 
{A[1],A[2],,,,A[k],B[k]}。 制 编码 的 结果 为 111，a^b=001， 表 明 项 集 a 和 项 集 b 中 不 同 
c) 剪 枝 。 根 据 Apriori 算法 的 性 质 2， 非 频繁 项 集 的 超 集 ”时 拥有 的 项 集 为 001， 即 为 {C}。 
也 是 非 频 繁 项 集 ， 对 产生 的 候选 项 集 进行 剪 梳 。 若 k 个 候选 ”2.2 实例 介绍 
频繁 (k+1)- 项 集 的 每 个 k- 项 项 集 不 是 都 是 频繁 k- 项 集 ， 即 有 现 举例 说 明 BE-Apriori 算法 ， 事 务 记录 如 表 1 所 示 ， 设 
一 个 或 者 多 个 k- 项 子 集 不 是 频繁 k- 项 集 ， 那 么 该 候选 频繁 。 定 的 最 小 支持 度 为 0.4。 
(k+1)- 项 集 不 可 能 为 频繁 (k+1)- 项 集 ， 以 此 来 对 候选 项 集 进行 表 1 事务 记录 
前 枝 。 Table 1 Transaction record 
d) 通 过 遍历 数据 库 , 对 候选 频繁 (k+1)- 项 集 的 支持 度 进行 TID list of items 
统计 ， 若 低 于 最 小 支持 度 ， 就 进行 滤 除 。 在 进行 支持 度 统计 Tl A,B,C,D 
的 时 候 对 于 每 个 候选 (Kk+1)- 项 集 ， 对 其 中 的 每 个 项 都 需要 遍 更 CE 
历 一 次 数据 库 ， 即 需要 遍历 (k+1) 次 才 可 以 统计 出 该 频繁 T3 C.D 
(k+l)- 项 集 的 支持 度 [9。 T4 A,C,D 
e) 循 环 执行 步骤 b)~d),， 直到 不 能 通过 连接 产生 候选 频繁 T5 CD,E 
项 集 为 止 。 算法 运行 步骤 如 下 : 
1.3 Apriori 算法 的 缺陷 a) 扫 描 数据 库 ， 获 取 各 个 1- 项 集 的 支持 度 ， 滤 除 支 持 度 
Apriori 算法 的 缺点 主要 如 下 (通过 频繁 k- 项 集 产生 频繁 。” 小 于 最 小 支持 度 的 候选 1- 项 集 , 统计 得 到 的 频繁 1- 项 集 及 其 
0 全 洒 让 全 上 编码 结果 为 表 2 所 示 。 
由 连接 和 前 枝 的 步骤 计算 效率 低下 ， 在 判断 了 两 个 频繁 表 2 频繁 1- 项 集 及 其 编码 结果 
k- 项 集中 有 (k-1) 项 是 相同 的 基础 上 ， 需 要 对 产生 的 候选 项 Table 2 Frequent 1-item set and its encoded result 
(k+1)- 项 集 的 个 k- 项 集 都 是 频繁 k- 项 集 做 判断 。 频繁 1- 项 集 编码 结果 
b) 每 个 候选 (k+l1)- 项 集 是 否 是 频繁 k- 项 集 还 需要 遍历 A 1000 
(k+1) 次 数据 库 ， 但 是 IO 效率 是 非常 低下 的 。 C 100 
c) 在 扫描 数据 库 时 需要 对 候选 项 集 和 事务 进行 模式 匹 D 10 
配 ， 花 费 大 量 的 时 间 鲁 。 E 1 
2 BE-Apriori 算法 b) 根 据 频 繁 1- 项 集 对 事务 记录 进行 编码 ， 由 于 频繁 1- 项 


集 的 个 数 为 4, 事务 记录 的 编码 长 度 小 于 或 等 于 4。 可 以 得 到 


众所周知 ，LIO 存 取 的 消耗 相对 于 内 存 存 取 要 高 几 个 数 ” 事务 记录 的 编码 结果 如 表 3 所 示 。 
量 级 nq。 本 文 提 出 的 BE-Apriori 算法 ， 在 Apriori 算法 的 三 表 3 事务 记录 的 编码 结果 
个 步骤 上 分 别 都 提出 改进 ， 提高 了 挖掘 频繁 项 集 的 效率 。 本 Table 3 Encoded transaction record 
文 算 法 只 需要 遍历 两 遍 数据 库 ， 第 一 遍 ， 统 计 得 到 频繁 1- 项 TID 编码 结果 
集 ; 第 二 遍 ， 根 据 频繁 1- 项 集 对 事务 记录 进 2 编码 ， 存 入 内 Tl 1110 
存 ; 之 后 的 全 部 计算 都 可 以 在 内 存 中 计算 ， 可 以 有 效 的 避免 T2 101 

于 IO 效率 的 低下 而 造成 的 时 间 损 耗 。 T3 110 

2.1 基本 概念 : T4 1110 

若 频 繁 1- 项 集 的 个 数 为 n， 可 以 把 所 有 项 集 编码 为 长 度 T5 111 
小 于 或 等 于 n 位 的 二 进 制 数 。 长 度 为 n 的 二 进 制 数 中 的 每 个 c) 通 过 遍历 频繁 1- 项 集 产 生 候选 2- 项 集 ， 由 于 产生 候选 
位 置 分 别 代表 每 个 项 。 若 某 项 在 此 项 集中 存在 ， 则 在 该 位 置 。 2. 项 集 的 时 候 ， 不 能 进行 前 枝 操 作 ， 所 以 产生 的 候选 2- 项 集 


为 1; 若 该 项 在 此 项 集中 不 存在 , 则 该 位 置 为 0。 编码 后 的 二 ”的 规模 会 比较 大 。 产 生 的 候选 2- 项 集 及 其 编码 结果 如 表 4 所 


~ 


进 制 数 可 能 小 于 n， 这 是 由 于 二 进 制 数 前 面部 分 位 置 代 表 的 。 示 。 
项 均 不 存在 。 据 此 可 以 对 所 有 事务 ， 频 繁 项 集 和 候选 项 集 进 qd) 计算 每 个 候选 2- 项 集 的 支持 度 。 候 选 2- 项 集 1100 与 各 
行 编码 。 然 后 , 通过 长 度 小 于 或 等 于 n 的 二 进 制 数 代表 它们 。 ”事务 与 的 结果 如 表 5 所 示 。 

性 质 3 ”连接 频繁 k- 项 集 A 和 了 得 到 候选 krl)- 项 集 C， 根据 性 质 4 可 以 统计 得 到 候选 2- 项 集 1100 与 各 事务 记 
若 候选 项 集 C 中 的 项 集 {A[KJ,BIK]} 不 是 频繁 项 集 ， 则 候选 项 。 录 与 的 结果 等 于 候选 2- 项 集 自身 的 个 数 为 2， 于 是 可 以 得 到 
集 C 不 可 能 是 频繁 项 集 。 1100 的 支持 度 为 0.4。 

证 明 由 Apriori 算法 的 性 质 2 可 以 知道 , 非 频 繁 项 集 的 同 理 可 得 ，1010 支持 度 为 0.4，1001 支持 度 为 0，0110 
超 集 也 是 非 频繁 项 集 。 由 于 候选 项 集 C 的 子 集 {A[KJ,B[K]} 不 


ChinaXiv 合 作 期 刊 


录用 定稿 胡 世 昌 ， 等 : 一 种 基于 二 进 制 编码 的 Apriori 改进 算法 第 37 考 第 2 期 
支持 度 为 0.8，0101 的 支持 度 为 0.4，0011 支持 度 为 0.2。 于 it&c==c then 


是 频繁 2- 项 集 ={1100,1010,0110,0101} 


表 4 候选 2- 项 集 及 其 编码 结果 
Table 4 Candidate 2-item set and its encoded result 


候选 2- 项 集 编码 结 
A,C 1100 
A.D 1010 
A,E 1001 
CD 110 
CE 101 


表 5 候选 2- 项 集 1100 与 事务 记录 与 的 结果 


ty 


Table 5 Result of AND operation between candidate frequent 2-items 


set 1100 and encoded transaction record 


TID 与 事务 记录 与 的 结果 

1110 1100 

0101 100 

0110 100 

1110 1100 

0111 100 
SS 6) 获 取 候选 3- 项 集 。 根 据 性 质 5， 由 于 1100^1010=1100， 
QI 表明 频繁 2- 项 集 1100 和 频繁 2- 项 集 1010 不 同时 含有 的 项 集 
CN 为 1100， 于 1100 属于 频繁 2- 项 集 ， 所 有 1100+1100& 1010 
TT 为 候选 3 项 集 。 同 理 可 得 ， 再 无 其 他 候选 项 集 。 于 是 ， 候 选 
@ 3- 项 集 为 1110。 
OO 站) 获取 频繁 3- 项 集 。1110 与 各 事务 与 的 结果 如 表 6 所 示 。 
CN 表 6 候选 三 项 集 1110 与 事务 记录 与 的 结果 
™ Table6 Result of AND operation between candidate frequent 3-items 
ee set 1110 and encoded transaction record 
© 事务 记录 与 事务 记录 与 的 结 
QI 1110 1110 
0101 100 
2 0110 110 
>< 1110 1110 
(9 0111 110 
= 所 以 1110 的 支持 度 为 0.4， 得 到 频繁 3- 项 集 为 1110。 
于 只 个 ， 故 不 能 连接 生成 候选 4- 项 集 。 到 此 结束 。 
() ”2.3 BE-Apriori 算法 描述 


ce 表示 候选 频繁 k- 项 集 ，D 表 


设 已 表 示 频 繁 k- 项 集 ， 


uy 


和 务 记 录 
BE-Apriori 算法 的 伪 代 码 如 下 : 
输入 : 事务 记录 D， 支 持 度 minsup 
输出 : 频繁 项 集 工 
forall transactions teD dobegin 
dobegin 


forall eleet 
ele.count ++ 
end 
end 
L = {elelele.count > minsup} 
for ( k=2; Lz#*O ;k++) dobegin 
if k==2 then 
C. =apriori-gen-1( Lb.); 
else 
C. =apriori-gen-2( Li ); 
forall transactions teD dobegin 


forall ceC. dobegin 


2.4 


c.count++ 
end 
end 
end 
Li = {ceClc.count > minsup} 
Answer= UL 
/获取 候选 2- 项 集 
apriori-gen-1 


Insert into C. 

select pitem,, qitem, 
from L, p,L: q 
/获取 候选 k- 项 集 (k>2) 
apriori-gen-2 


insert into C. 

Select pitem,, pitem,',,, pitem, |, ditem 1 

from DZ p， Po d 

Where p^q eb 

BE-Apriori 算法 性 能 分 析 

a 人 避免 了 多 次 扫描 数据 库 ， 仅 仅 扫 描 两 遍 数 据 库 ， 就 可 


以 通 
过 在 
减少 
费 的 


描 
过 编码 后 的 事务 集 代替 数据 库 中 的 事务 集 。 之 后 仅仅 通 
内 存 中 的 运算 ， 就 可 以 得 到 全 部 频繁 项 集 。 可 以 有 效 的 
于 频繁 扫描 数据 库 进行 


1 


Apriori 算法 中 的 IO 操作 所 耗 


时 间 。 
在 Apriori 算法 中 的 连接 操作 需要 判断 两 个 频繁 k- 项 集 


[=, 


证 


的 前 
情况 
度 为 


(k-1) 项 是 否 相 同 ， 这 个 需要 在 项 集 按照 特定 顺序 排列 的 
下 才能 比较 ，k 项 集 的 排序 在 较 好 的 情况 下 的 时 间 复 杂 
O(klogk) 。 在 Apriori 算法 中 的 剪 枝 操 作 ， 需 要 判断 候选 


0D 


Ge+D- 项 集 的 k 个 k- 项 子 集 ， 这 个 操作 需要 的 时 间 复杂 度 为 


O(k) 


BE-Apriori 算法 中 ， 连 接 和 剪 枝 的 操作 在 1 步 完成 ， 通 过 


码 后 
以 完 
数 时 


。 所 以 连接 和 剪 枝 操作 的 时 间 复 杂 度 为 OUe log*) 。 而 在 


编 
的 两 个 频繁 k- 项 集 异 或 的 结果 是 否 为 频繁 2- 项 集 , 就 可 
成 连接 和 剪 枝 的 操作 ， 其 时 间 复杂 度 为 0(1) ， 即 通过 党 
间 就 可 以 完成 。 
b) Apriori 算法 性 


过 


项 1 之 后 , 绝 大 部 分 运算 都 可 以 归结 为 
制 编码 后 的 项 集 ， 只 需要 通过 计 
底层 所 支持 的 二 进 制 的 基本 计算 就 可 以 代替 集合 之 | 


4 


。 集 合 在 编程 语言 中 需要 转换 为 特定 的 数据 结构 ， 再 i 


集合 之 间 的 运算 。 通 过 二 进 
算 机 

运算 

行 集合 之 间 的 运算 。 而 二 进 
又 ， 

3 ”实验 验证 

1867 


Python3.6 作为 开发 语言 ， 分 别 实现 了 基本 的 Apriori 算法 ， 
VM_Apriori 算法 {I 和 BE-Apriori 算法 。 


集 为 
据 。 
的 事 


表 7 给 出 了 在 支持 度 为 0.2， 


1000 
1 给 


一 口 


法 各 


法 中 


也 
判 编码 后 的 项 集 可 以 省 略 中 间 步 
从 而 可 以 有 效 的 提高 BE-Apriori 算法 的 执行 效率 。 


一 由 


实验 环境 : 处 理 器 为 2.7 GHz Intel Core i5, 内 存 是 8 GB 
MHz DDR3 ， 操 作 系 统 为 macOS 10.13.5， 选 用 了 


实验 数据 采用 的 数据 
Frequent Itemset Mining Dataset Repository 中 的 蘑菇 数 
实验 目的 是 挖掘 与 蘑菇 毒 属性 相关 联 的 属性 。 数 据 集 中 
务 数 为 8124， 事 务 的 长 度 均 为 23， 总 共 包含 120 个 项 。 
三 个 算法 在 事务 记录 分 别 为 
,2000,4000,8000 的 时 候 ， 事 务 记 录 分 别 占用 的 内 存 。 图 
出 了 支持 度 分 别 设置 为 0.12，0.15，0.17，0.2， 两 个 算 
的 运行 时 间 。 

表 7 可 知 ， 在 相同 事务 记录 的 情况 下 ，BE-Apriori 算 
经 过 二 进 制 编码 后 的 事务 记录 占用 的 内 存 是 远 小 于 


录用 定稿 胡 世 昌 ， 等 : 


Apriori 算法 中 原始 的 存储 方式 和 VM_Apriori 算法 中 和 矩阵 的 


存储 方式 。 由 此 可 见 ，BE-Apriori 算法 为 把 事务 记录 加 载 到 
内 存 中 提供 了 可 行 性 。 
表 7 三 个 算法 分 别 占 用 内 存 /Byte 
Table7 三 个 算法 分 别 占 用 内 存 /Byte 
算法 事务 数 Apriori VM_Apriori BE-Apriori 
1000 2274 272 1 135 298 28 028 
2000 4 546 272 3 021 596 56 028 
4000 9 090 272 5911 368 112 028 


—@=== BE-ADTiOT = VIVE Apriorl th A PTO 


2500 
2000 
0 1500 
FF 1000 
500 
0 
0.12 0.15 0.17 0.2 
图 1 三 个 算法 的 运行 时 间 
Fig.1 Runtime of three algorithms 
在 支持 度 较 小 的 时 候 ， 频 繁 1- 项 集会 较 多 ， 由 于 算法 是 


层 层 迭 代 的 ， 所 以 会 造成 之 后 的 计算 量 也 会 增多 ， 


也 就 是 算 
法 的 运行 时 间 会 随 着 支持 度 的 增 大 而 减少 。 从 图 1 中 可 以 明 
显 的 看 出 ，BE-Apriori 算法 在 支持 度 较 小 的 时 候 ， 其 运行 


F 时 


间 也 是 小 于 两 外 两 种 算法 的 。 


实验 结果 表明 ， 该 算法 在 时 间 和 空间 上 的 效率 相 较 了 


Apriori 算法 是 有 显著 提升 的 。 
4 ”结束 语 


从 Apriori 算法 到 BE-Apriori 算法 ， 没 有 复杂 的 推导 ， 


间 都 是 远 小 于 另外 两 种 算法 ， 在 支持 度 较 大 的 时 候 ， 耗 费时 


nm 


简单 易于 理解 ,综合 考虑 了 Apriori 算法 挖掘 频繁 项 集 过 程 中 


的 缺陷 ， 并 提出 相应 的 解决 方案 。 创 造 性 的 提出 以 二 进 种 


I 编 


码 的 项 集 作为 载体 载 入 内 存 ， 并 在 二 进 制 编码 的 基础 上 有 效 


的 进行 等 效 的 集合 之 间 的 运算 。 通 过 实验 对 比 可 知 ， 该 算法 


有 效 的 提高 了 Apriori 算法 的 执行 效率 和 空间 利用 率 。 然 而 ， 
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在 频繁 1- 项 引 


较 大 的 情况 下 ， 项 集 的 编码 长 度 较 长 。 这 种 情 


1 


用 的 内 存 会 较 大 。 以 后 的 


况 下 ， 项 集 
上 展开 。 
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